Tabelle im Dokument lesen
Dieses Codebeispiel demonstriert, wie man mit der IronTesseract OCR-Engine Text- und Tabellendaten aus einem PDF-Dokument extrahiert.
- Es wird eine Instanz der
IronTesseractOCR-Engine erstellt. - Ein
OcrInputObjekt wird initialisiert und eine PDF-Datei ("table.pdf") wird mit der MethodeLoadPdfgeladen. - Die OCR-Engine verarbeitet das Dokument mit der Methode
ReadDocumentAdvanced, die ein detaillierteresOcrResult-Objekt zurückgibt. - Auf die erste im Dokument gefundene Tabelle wird mit
result.Tables.First()zugegriffen, und die Zelleninformationen für diese Tabelle werden mitCellInfosextrahiert. - Die Liste der Zelldaten (
cellList) enthält nun die Zellen der Tabelle, einschließlich des Textinhalts und anderer Details (z. B. Zellposition, Größe). - Diese Methode ist nützlich, um strukturierte Daten wie Tabellen aus PDFs zu extrahieren, sodass der Text innerhalb jeder Tabellenzelle programmatisch zugänglich und verarbeitbar ist.
Erfahren Sie, wie Sie mit IronOCR Tabellen in PDFs lesen können.

